Loading...
机构名称:
¥ 1.0

随着人工智能系统在现实世界中的应用不断增加,对可靠和值得信赖的人工智能的需求也随之而来。其中一个重要方面是可解释的人工智能系统。然而,对于如何评估可解释的人工智能系统,并没有统一的标准。受图灵测试的启发,我们引入了一个以人为中心的评估框架,其中领先的领域专家接受或拒绝一个人工智能系统和另一个领域专家的解决方案。通过比较提供的解决方案的接受率,我们可以评估人工智能系统与领域专家相比的表现如何,以及人工智能系统的解释(如果提供)是否是人类可以理解的。这种设置——与图灵测试类似——可以作为广泛的以人为中心的人工智能系统评估的框架。我们通过两个实例来证明这一点:(1)一种评估,衡量系统的分类准确性,可选择纳入标签不确定性;(2)一种评估,以人为本的方式确定所提供解释的实用性。

arXiv:2205.12749v2 [cs.AI] 2022 年 7 月 1 日

arXiv:2205.12749v2 [cs.AI] 2022 年 7 月 1 日PDF文件第1页

arXiv:2205.12749v2 [cs.AI] 2022 年 7 月 1 日PDF文件第2页

arXiv:2205.12749v2 [cs.AI] 2022 年 7 月 1 日PDF文件第3页

arXiv:2205.12749v2 [cs.AI] 2022 年 7 月 1 日PDF文件第4页

arXiv:2205.12749v2 [cs.AI] 2022 年 7 月 1 日PDF文件第5页